Floormod

逐元素计算两个输入张量的 floor-modulus。

\[\text{output}_i = \text{input0}_i - \lfloor \frac{\text{input0}_i}{\text{input1}_i} \rfloor \cdot \text{input1}_i\]

其中 \(\lfloor \cdot \rfloor\) 表示向下取整 (floor) 操作。

输入：

input0 - 第一个输入张量（被除数）的数据地址。
input1 - 第二个输入张量（除数）的数据地址。
params - 参数打包，格式如下。
- input0_dims - input0的维度信息。
- input1_dims - input1的维度信息。
- output_dims - output的维度信息。
- strides0 - 输入张量0的步长信息。
- strides1 - 输入张量1的步长信息。
- strides_output - 输出张量的步长信息。
- num_dims - 张量的维度数。
core_mask - 核掩码。

输出：

output - 输出张量的数据地址，其大小与输入张量相同。

支持平台：

FT78NE MT7004

备注

FT78NE 支持fp32
MT7004 支持fp16, fp32

共享存储版本:

void fp_floor_mod_s(float *input0, float *input1, float *output, long long *params, int core_mask)

void hp_floor_mod_s(half *input0, half *input1, half *output, long long *params, int core_mask)

void dp_floor_mod_s(double *input0, double *input1, double *output, long long *params, int core_mask)

C调用示例：

//FT78NE示例
#include <stdio.h>
#include <floormod.h>
int main(int argc, char* argv[]) {
    float* input0 = (float*)0x81000000;
    float* input1 = (float*)0x82000000;
    float* output = (float*)0x83000000;
    int *strides0 = (int*)0x84000000;
    int *strides1 = (int*)0x85000000;
    int *strides_output = (int*)0x86000000;

    int core_mask = 0b1111;

    // same shape
    int input0_dims[] = {4, 1, 16};  // 2x2
    int input1_dims[] = {4, 8, 16};  // 2x2
    int output_dims[] = {4, 8, 16};      // 2x2
    int num_dims = 3;

    unsigned long long params[9];
    params[0] = (unsigned long long)input0_dims;
    params[1] = (unsigned long long)input1_dims;
    params[2] = (unsigned long long)output_dims;
    params[3] = (unsigned long long)strides0;
    params[4] = (unsigned long long)strides1;
    params[5] = (unsigned long long)strides_output;
    params[6] = (unsigned long long)num_dims;

    int total_input0 = get_total_elements(num_dims, input0_dims);
    int total_input1 = get_total_elements(num_dims, input1_dims);
    int total_output = get_total_elements(num_dims, output_dims);

    srand(time(0));

    int i;
    for (i = 0; i < total_input0; ++i) {
        input0[i] = (float)(rand() % 100) / 10.0f;
    }

    for (i = 0; i < total_input1; ++i) {
        input1[i] = (float)(rand() % 100) / 10.0f + 0.01f;
    }

    fp_floor_mod_s(input0, input1, output, params, core_mask);
    return 0;
}

私有存储版本:

void fp_floor_mod_p(float *input0, float *input1, float *output, long long *params)

void hp_floor_mod_p(half *input0, half *input1, half *output, long long *params)

void dp_floor_mod_p(double *input0, double *input1, double *output, long long *params)

C调用示例：

//FT78NE示例
#include <stdio.h>
#include <floormod.h>
int main(int argc, char* argv[]) {
    float* input0 = (float*)0x10010000;
    float* input1 = (float*)0x10020000;
    float* output = (float*)0x10030000;
    int *strides0 = (int*)0x10050000;
    int *strides1 = (int*)0x10053000;
    int *strides_output = (int*)0x10056000;

    // same shape
    int input0_dims[] = {4, 1, 16};  // 2x2
    int input1_dims[] = {4, 8, 16};  // 2x2
    int output_dims[] = {4, 8, 16};      // 2x2
    int num_dims = 3;

    unsigned long long params[9];
    params[0] = (unsigned long long)input0_dims;
    params[1] = (unsigned long long)input1_dims;
    params[2] = (unsigned long long)output_dims;
    params[3] = (unsigned long long)strides0;
    params[4] = (unsigned long long)strides1;
    params[5] = (unsigned long long)strides_output;
    params[6] = (unsigned long long)num_dims;

    int total_input0 = get_total_elements(num_dims, input0_dims);
    int total_input1 = get_total_elements(num_dims, input1_dims);
    int total_output = get_total_elements(num_dims, output_dims);

    srand(time(0));

    int i;
    for (i = 0; i < total_input0; ++i) {
        input0[i] = (float)(rand() % 100) / 10.0f;
    }

    for (i = 0; i < total_input1; ++i) {
        input1[i] = (float)(rand() % 100) / 10.0f + 0.01f;
    }

    fp_floor_mod_p(input0, input1, output, params);
    return 0;
}